直接从观察数据中直接从观察数据中学习最佳患者的最佳治疗策略,人们对利用RL和随机控制方法有很大的兴趣。但是,控制目标和标准RL目标的最佳奖励选择存在明显的歧义。在这项工作中,我们提出了针对重症患者的临床动机控制目标,该价值功能具有简单的医学解释。此外,我们提出理论结果并将我们的方法调整为实用的深度RL算法,该算法可以与任何基于值的深度RL方法一起使用。我们在大型败血症队列上进行实验,并表明我们的方法与临床知识一致。
translated by 谷歌翻译
我们引入了一个新颖的对比表示学习目标和临床时间序列的培训方案。具体而言,我们投射高维EHR。数据到具有低维的封闭单位球,编码几何先验,以使原点代表理想化的完美健康状态,而欧几里得规范与患者的死亡率风险有关。此外,以化粪池患者为例,我们展示了如何学会将两个向量之间的角度与不同器官系统失败相关联,从而学习一种紧凑的表示,这表明了死亡率风险和特定器官衰竭。我们展示了如何将学习的嵌入方式用于在线患者监测,可以补充临床医生并提高下游机器学习任务的性能。这项工作是由于欲望的部分动机,也需要引入一种系统的方式来定义重症监护医学中的强化学习中级奖励。因此,与仅使用终端奖励相比,我们还展示了这种设计如何从学到的嵌入中产生不同的策略和价值分布。
translated by 谷歌翻译